AIトレーニングに最適化されたカスタムチップAWS Trainium2を搭載するAmazon EC2 Trn2インスタンスがGAになり、Trn2を4台つなげたTrn2 UltraServerがプレビューで発表されました
2024.12.04
LLMや生成AIの躍進により、AIのトレーニング・推論の需要は高まっており、モデルの大規模化も相まって、NVidia GPUのエコシステムよりもトレーニングをコスト効率よく実現する手法が求められています。
そのような要請を解決するのが、今回GAやプレビュー公開と関連する、AWS Trainium2カスタムチップ、Amazon EC2 Trn2インスタンス、Trn2 UltraServerです。
EC2 Trn2 インスタンスと Trn2 UltraServer の紹介動画には、3つのハードウェアが写っています。
左から順にAWS Trainium2、Trn2インスタンス、Trn2 UltraServerです。
- AWS Trainium2
- AWSはAIトレーニング向けのカスタムチップ AWS Trainium2を開発している
- Trn2インスタンス
- AWS Trainium2チップを16個積んでいる
- re:Invent 2023でプレビュー発表
- 1年後のre:Invent 2024でGA
- 従来型の P5e や P5en を使った場合よりも30-40%安価
- 20.8 FP8 petaflop
- Trn2 UltraServer
- 4台のTrn2インスタンスからなるTrn2 UltraServerがre:Invent 2024でプレビュー発表された
- 4*16=64個のTrainium2チップ同士を独自インターコネクト(NeuronLink)でつなげ、広帯域、低遅延を実現
- 4インスタンスを1ノードに見立てるクラスター化の基盤技術にはEC2 UltraClusterを利用
- 83.2 FP8 petaflop
オハイオリージョンで Trn2 インスタンスは起動可能になっています
詳細は、以下の商品ページや公式アナウンスをご確認ください
- AI Accelerator - AWS Trainium - AWS
- AI Training and Inference at Scale - Amazon EC2 UltraServers - AWS
- Gen AI Compute Instance - Amazon EC2 Trn2 Instances - AWS
- Amazon EC2 UltraClusters Instances – AWS
- Amazon EC2 Trn2 Instances and Trn2 UltraServers for AI/ML training and inference are now available | AWS News Blog